2Н 


УДК 004.8 


Н.А. Новоселова, И.Э. Том 

Объединенный институт проблем информатики 
Национальной академии наук Беларуси, г. Минск 
поуозе@пе\утап.Ъа$-пе.Ъу, 1от@пе\утап.Баз-пеё.Бу 


Подход к построению ансамбля 
классификаторов с использованием 
генетического алгоритма 


В статье рассматривается НОВЫЙ эволюционный подход к построению ансамбля классификаторов. 
Предложенный подход разработан на основе генетического алгоритма с модифицированной схемой 
реализации. В процессе оптимизации происходит определение параметров как отдельных классификаторов, 
так и всего ансамбля. С использованием подхода выполнено построение ансамбля классификаторов 
на нескольких наборах данных из архива Данных по машинному обучению и на одном реальном 
наборе медицинских данных. Сравнительное тестирование показало преимущества использования 
предложенного подхода при работ е с многомерными данными, характеризующимися большим количеством 
признаков. 


Введение 


Согласно литературным источникам [1], [2] использование комбинации класси- 
фикаторов позволяет повысить точность классификации при решении практических 
задач. Среди всех имеющихся методов построения ансамбля классификаторов наибо- 
лее популярными являются «Базоте» и «БоозЯпе» [3], которые основаны на манипу- 
ляциях с исходным обучающим множеством с целью построения нескольких клас- 
сификаторов. Теоретические и эмпирические результаты показывают, что результат 
комбинации классификаторов наиболее эффективен, когда классификаторы являются 
независимыми [4]. Для построения независимых классификаторов наиболее эффек- 
тивным методом является обучение отдельных членов ансамбля на различающихся 
подмножествах признаков [5], [6]. Таким образом, построение ансамбля классифика- 
торов на основе декомпозиции исходного набора признаков, описывающих объекты 
данных, в большинстве случаев имеет преимущества. Известно большое количество 
публикаций, исследующих свойства ансамблей классификаторов, которые построены 
с использованием различных подмножеств признаков. Например, в работе [5] была 
продемонстрирована возможность использования рандомизированных подмножеств 
признаков для построения ансамбля классификаторов. Однако, когда размерность 
признакового пространства достаточно большая, такой способ является неэффективным. 
В работе [2] использовался эвристический алгоритм для декомпозиции множества 
признаков на несколько некоррелированных подмножеств, который, являясь локально 
оптимальным, не гарантировал получение наилучшего результата. 

В настоящей работе представлен подход к построению ансамбля классифика- 
торов, отличительной особенностью которого является использование генетического 
алгоритма (ГА) для одновременного отбора нескольких подмножеств признаков для 
построения отдельных классификаторов, входящих в состав ансамбля. Использова- 
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ние ГА для решения оптимизационной задачи декомпозиции исходного множества 
признаков для построения ансамбля классификаторов объясняется следующими при- 
чинами: 

— простотой кодирования решения оптимизационной задачи; 

— отсутствием ограничений на гладкость оптимизируемой функции, что позволяет в 
качестве последней использовать точность классификации с использованием ансамбля; 
— отсутствием эффективных субоптимальных алгоритмов отбора подмножеств приз- 
наков для классификаторов, составляющих ансамбль. 

В предыдущих работах [7-9] ГА использовался в основном для оптимизации 
отбора информативных признаков для построения индивидуального классификатора. 
В этом случае все множество признаков разбивалось на два подмножества, одно из 
которых полностью отбрасывалось и не использовалось при решении классификацион- 
ной задачи. Предлагаемый в настоящей статье подход позволяет использовать все 
исходное множество признаков для построения ансамбля классификаторов с одно- 
временным обучением как параметров индивидуальных классификаторов, так и всего 
ансамбля. 


1. Формальное определение ансамбля классификаторов 


Г 
Пусть имеется множество © = {@,...,@,} меток классов и пусть х=[х,...хи| © 


=А” — набор признаков, описывающих объект данных. Классификатором является 
отображение следующего вида: 

р: В" [0,1], 
где 0(х) - вектор размерности с, у которого 1-й компонент определяет степень при- 
надлежности х классу ©, 1 = 1,...,с. В системах, основанных на комбинации К класси- 


фикаторов, выходы отдельных классификаторов агрегируются для получения окон- 
чательного классификационного решения: 


Ро) =Е(О(х),...,0,(>)), 
где Е — оператор агрегирования. Выходом каждого отдельного классификатора для 
некоторого объекта данных х является с-мерный вектор О(х) = Ё ыы, @)] р 
1=1,....К. Выходом всей комбинации классификаторов является с-мерный вектор — 
Б(®) = [и,(>),..., м. о] ‚. Если необходимо определить для объекта х единственную метку 
класса, то класс с», соответствует максимальному значению степеней принадлежности: 
а,,(х)> а, ‚(х) У7=Ъ...,с — для отдельных классификаторов; 
и, (х) > и, (х), МЕ =1,...,с — для всего ансамбля. 


Существуют различные операторы, позволяющие комбинировать выходы отдель- 
ных классификаторов ансамбля. К ним относятся: оператор максимума, минимума, 
произведения, усреднения, решение «большинством голосов» и т.д. В нашем иссле- 
довании отдельные классификаторы комбинируются с использованием метода «боль- 
шинством голосов», который является достаточно популярным и простым в реализации. 


Пусть с-мерный вектор 2, (х) = [4 ПОЙ 09] Е [0, | — выход классификато- 


ра Рь 1= [,...К для входного объекта х. Значение 4, р (х) Е [0,1] означает поддержку, 
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оказываемую классификатором Д; гипотезе о том, что х относится к классу @. Для 
того, чтобы определить «голос» классификатора в поддержку единственного класса, 
мы огрубляем классификационное решение, а именно выбираем класс 


@, > 4,,(х) = шах {а, ‚(х)}. 


Таким образом, классификационное решение для каждого О; формулируется 
как бинарный вектор О’, имеющий о в позиции 5 И НОЛЬ В ОСТальных ПОЗИЦИЯХ: 


Л=5 
= о. 125. 


Решение «большинством голосов» Ежа, представленное в виде с-мерного векто- 
ра, = следующим образом: 


=2(х) = [4.(%),....а.0], а.) ={0,1},7=1,....с 


т 


4,(х) = 1, 2.4.) = тах, а к. 


где А - количество классификаторов в ансамбле. 

В нашем исследовании мы используем различные подмножества исходных 
признаков для построения ансамбля классификаторов. В качестве отдельного клас- 
сификатора используется метод ближайших соседей [10]. 


2. Подход к построению ансамбля классификаторов 


Предложенный подход к построению ансамбля классификаторов разработан на 
основе ГА, который имеет модифицированную схему реализации применительно к 
задаче оптимизации разбиения множества признаков на подмножества, определяю- 
щие отдельные классификаторы ансамбля. Таким образом, формулируется следующая 
оптимизационная задача: 

Пусть Ф — множество различных разбиений множества признаков, характеризую- 
щих объект данных, на А подмножеств, каждое из которых соответствует отдельному 
классификатору. Каждое разбиение представляет собой некоторую комбинацию вход- 
ных признаков из максимально возможного количества комбинаций (КИМ, где М - 
количество входных признаков. Требуется найти такое разбиение 5 Е Ф ‚ которое яв- 
ляется решением задачи оптимизации с одним критерием: 


тах Л (5), 


где /1(5) — количество правильно классифицированных объектов с использованием 
ансамбля классификаторов. 

Общая схема реализации предложенного подхода с использованием ГА пред- 
ставлена на рис. 1. Согласно рис. 1, случайным образом формируется поколение ГА 
путем различных разбиений всего множества признаков А обучающей выборки на А 
подмножеств А’, 1< / <. С использованием каждого из подмножеств признаков, зако- 


дированных в К отдельных особях ГА, выполняется построение А классификаторов. 
Классификационные решения отдельных классификаторов комбинируются с исполь- 
зованием рассмотренного выше оператора агрегирования «большинством голосов», 
определяя решение ансамбля классификаторов. Затем в цикле выполняются генети- 
ческие операции рекомбинации и отбора особей ГА в новое поколение решений оп- 
тимизационной задачи, где в качестве функции приспособленности особи выступает 
результат классификации данных ансамблем классификаторов. 
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Выборка данных 


и Чо Ао 

55 И, 12 ХМ Подмножество -> Классификатор 

признаков А' 1 
Подмножество Классификатор 

Шаг работы генетического признаков А? г 2 

алгоритма т 

Подмножество => Классификатор 

признаков А* К 

Агрегирование 
Классификация «большинством голосов» 


Рисунок 1 — Схема предложенного подхода 


Одним из ключевых вопросов, возникающих при использовании ГА для решения 
прикладной задачи, является способ кодирования решения в особи, подвергающейся 
воздействию генетических операторов. В нашем исследовании в особи (хромосоме) 
ГА кодируется решение задачи разбиения множества признаков на подмножества 
для построения ансамбля классификаторов. Особь представляет собой множество 
признаков, каждый из которых отнесен к некоторому подмножеству, 1-й ген соот- 
ветствует 1-му признаку. Были использованы две схемы кодирования: 

1. В первой схеме каждый ген принимает значение от 1 до КА, которое соот- 
ветствует подмножеству признаков, определяющему индивидуальный классификатор. 
В этом случае множество исходных признаков делится на несколько непересекаю- 
щихся подмножеств. Пространство поиска равно (+1), где М — количество входных 
признаков, например, при К = 3, и количеству признаков М = 7, возможное представ- 
ление особи ГА представлено на рис. 2. 


Классификатор 1 


2 а НИЕ: 


Классификатор 3 


Классификатор 2 


Рисунок 2 — Первая схема кодирования особи ГА 


2. Во второй схеме существует возможность определения пересекающихся под- 
множеств признаков. Размерность пространства поиска равна (2%), где М — количест- 
во входных признаков. Пример кодирования особи ГА с тремя классификаторами и 
количеством признаков М = 7 представлен на рис. 3. 


Классификатор 1 


Классификатор 2 


Рисунок 3 — Вторая схема кодирования особи ГА 


Классификатор 3 
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Для кодирования представленной на рис. 3 особи используются следующие 
обозначения: 
если значение гена равно 1 — признак принадлежит только первому подмножеству; 
если значение гена равно 2 — признак принадлежит только второму подмножеству; 
если значение гена равно 3 — признак принадлежит только третьему подмножеству; 
если значение гена равно 4 = признак принадлежит ТОЛЬКО первому И второму под- 
множеству; 
если значение гена равно 5 — признак принадлежит только первому и третьему под- 
множеству; 
если значение гена равно 6 = признак принадлежит ТОЛЬКО второму И третьему под- 
множеству; 
если значение гена равно 7 — признак принадлежит одновременно всем трем подмно- 
жествам. 


3. Результаты экспериментов 


Разработанный подход к построению ансамбля классификаторов с использова- 
нием ГА был протестирован (табл. 1) на двух наборах данных из архива данных по 
машинному обучению (В#р://\\\/\.165.1с1.еди/-пеаги/): по болезни сердца Неам, по 
определению типов вин У! ше, и на одном наборе медицинских данных пациентов с тран- 
зиторными ишемическими атаками (ТИА)”. 

Для оценки точности классификации ансамблем классификаторов мы разбивали 
исследуемые наборы данных на две части, одна из которых использовалась для обу- 
чения ансамбля (обучающая выборка), а вторая — для тестирования результатов (тес- 
товая выборка). 


Таблица 1 — Описание наборов данных для тестирования 


Количество 
Количество Количество 
Набор данных объектов 
признаков классов 
данных 
Неа 303 13 2 
У! ше 178 13 3 
ТИА 101 41 4 


Было поставлено четыре эксперимента по построению ансамбля классификаторов: 

1) построение ансамбля из трех классификаторов на основе непересекающихся 
подмножеств признаков; 

2) построение ансамбля из пяти классификаторов на основе непересекающихся 
подмножеств признаков; 

3) построение ансамбля из семи классификаторов на основе непересекающихся 
подмножеств признаков; 

4) построение ансамбля из трех классификаторов на основе пересекающихся под- 
множеств признаков. 

Для каждого набора данных был построен как индивидуальный классификатор 
с использованием подмножества признаков, отобранных с использованием ГА, ранее 
описанного авторами в [11], так и ансамбль классификаторов. 


* 
Авторы выражают благодарность Мастыкину А.С. (Белорусский государственный медицин- 
ский университет, г. Минск, Беларусь) за предоставление данных по ТИА для проведения анализа. 
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Для проведения экспериментов были выбраны следующие параметры ГА: 

— Размер популяции - 100 - 200. 

— Максимальное количество генераций - 100. 
— Вероятность скрещивания Рек = 0,8. 

— Вероятность мутации Рыу.= 0,1. 

Результаты экспериментов, полученные для каждого из наборов данных, представ- 
лены в табл. 2 — 4. В столбце «Точность классификации» указана точность класси- 
фикации тестовой выборки. В связи с небольшим количеством признаков, характери- 
зующих объект данных в наборах данных Неа и \/ше, ансамбль классификаторов 
строится с использованием трех или пяти подмножеств признаков. 


Таблица 2 — Результаты эксперимента для набора данных Неай 


Количество 
Точность Лучшее решение — 
подмножеств 
классификации особь ГА 

признаков 
о ое о 1 классификатор 0,754 Все признаки 
К-ближайших соседей) 
Носика ТОВ 1 классификатор 0,829 0,0,1,0,0,0,0,0,0,0,0,1,1 
отбором признаков 
Ансамбль 0,3,2,0,1,1,3,0,1,0,1,3,1 
классификаторов 3 классификатора 0,848 или 
(схема 1) 2,1,2,0,1,0,1,0,1,0,2,3,3 

5 классификаторов 0,865 0,1,5,1,1,3,1,0,3,1,2,4,3 

Ансамбль 
классификаторов 3 классификатора 0,865 3,7,2,2,4,3,4,3,7,6,0,5,3 
(схема 2) 


Согласно табл. 2, для набора данных Неа классификатор на отобранном под- 
множестве наиболее информативных признаков улучшает результаты классифика- 
ции тестовой выборки с 75,4% до 82,9%. Наилучшие результаты классификации 
дают ансамбль из пяти классификаторов с непересекающимися подмножествами при- 
знаков и ансамбль из трех классификаторов с пересекающимися подмножествами 


признаков. 


Таблица 3 — Результаты эксперимента для набора данных \М ше 


Количество 
Точность Лучшее решение — 
подмножеств 
классификации особь ГА 
признаков 
Классификатор (метод 
в и 1 классификатор 0,95 Все признаки 
К-ближайших соседей) 
р 1 классификатор 0,994 1,1,0,0,1,0,1,1,0,1,1,0,1 
отбором признаков 
Ансамбль 
классификаторов 3 классификатора 0,994 3,1,1,1,2,3,3,0,2,2,3,0,3 
(схема 1) 
5 классификаторов 0,994 2,0,1,1,2,1,2,2,1,4,4,1,4 
Ансамбль 
классификаторов 3 классификатора 0,994 6,6,1,0,5,5,7,0,2,6,6,1,7 
(схема 2) 
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Как видно из табл. 3, для набора данных \/ше построенный классификатор на 
отобранном подмножестве наиболее информативных признаков улучшает результаты 
классификации тестовой выборки с 75,4% до 82,9%. Точность классификации ан- 
самбля из трех и пяти классификаторов с непересекающимися подмножествами 
признаков и ансамбля из трех классификаторов с пересекающимися подмножествами 
признаков не лучше, чем точность отдельного классификатора с отобранным под- 
множеством признаков. Это можно объяснить тем, что почти все признаки набора 
данных \/ше информативны, что подтверждается высокой точностью классификации 
тестовой выборки с использованием одного классификатора и всех признаков. Сле- 
довательно, построение ансамбля классификаторов путем разбиения множества при- 
знаков на несколько подмножеств не улучшает точности классификации и не является 
необходимым в этом случае. 


Таблица 4 — Результаты эксперимента для набора данных ТИА 


Количество Т 
очность 
подмножеств 
классификации 
признаков 
Классификатор (метод К- 1 классификатор 0,604 
ближайших соседей) 2 
Классификатор с отбором 1 классификатор 0.802 
признаков ? 
Ансамбль классификаторов 3 классификатора 0.852 
(схема 1) ь 
5 классификаторов 0,861 
7 классификаторов 0,792 
Ансамбль классификаторов 3 классификатора 0.871 
(схема 2) | 


Согласно табл. 4, для набора данных ТИА классификатор на отобранном под- 
множестве наиболее информативных признаков существенно улучшает результаты 
классификации тестовой выборки с 60,4% до 80,2%. Наилучшие результаты класси- 
фикации дают ансамбль из пяти классификаторов с непересекающимися подмножест- 
вами признаков (86,1%) и ансамбль из трех классификаторов с пересекающимися 
подмножествами признаков (87,1%). 

Как следует из результатов вычислительных экспериментов с тремя наборами 
данных, предложенный в настоящей работе подход к построению ансамбля класси- 
фикаторов обеспечивает получение более высокой точности классификации объектов, 
характеризующихся большим количеством признаков. Мы надеемся, что это будет 
подтверждено дальнейшими экспериментами с более широкой номенклатурой тесто- 
вых и реальных наборов данных. Как следует из анализа результатов экспериментов, 
использование в классификаторе всех признаков, включающих как информативные, 
так и избыточные, дает наихудшие результаты классификации. Использование клас- 
сификатора, построенного на отборе только одного подмножества информативных 
признаков, может привести к игнорированию хороших альтернативных решений, кото- 
рые могуг стать составной частью ансамбля классификаторов и в комплексе обеспечить 
более высокую точность классификации. 


Заключение 


В представленной работе описан подход к построению ансамбля классификаторов 
на основе применения модифицированного ГА. Отличительной чертой предложен- 
ного подхода является представление задачи построения ансамбля классификаторов 
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как задачи оптимизации разбиения исходного множества признаков на подмножест- 
ва, определяющие отдельные классификаторы ансамбля. Применение ГА в качестве 
инструмента решения оптимизационной задачи позволяет в автоматическом режиме 
находить такие комбинации классификаторов, которые обеспечивают максимум точ- 
ности классификации объектов данных ансамблем. Причем в процессе оптимизации 
происходит определение параметров как отдельных классификаторов, так и их ан- 
самбля. Выполнено тестирование предложенного подхода на нескольких наборах 
данных, что показало более высокую точность классификации с использованием ан- 
самбля классификаторов, чем с использованием отдельных классификаторов. Дальнейшим 
направлением исследований является решение задачи построения ансамбля класси- 
фикаторов с возможностью определения типа для каждого индивидуального класси- 
фикатора, который будет кодироваться в расширенной хромосоме ГА. 
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Н.А. Новосьолова, 1.Э. Том 

ШПдхи до побудови ансамблю класиф!катор!в з використанням генетичного алгоритму 

У стати розглядаеться новий еволющйний шджд до побудови ансамблю класиф/каторв. Запропонований 
шдхжд розроблений на основ! генетичного алгоритму з модифкованою схемою реаллзаци. У процес 
оптимзаци в1дбуваеться визначення параметрав як окремих класиф1каторв, так 1 всього ансамблю. 
3 використанням шдходу виконана побудова ансамблю класифкатор\в на деклькох наборах даних з 
арх1ву даних по машинному навчанню й на одному реальному набор! медичних даних. Пор1вняльне 
тестування показало переваги використання запропонованого шдходу при робот! з багатовимрними 
даними, що характеризуються б1лльшою клькстю ознак. 


М.А. №оуо5беотъа, ГЕ. Тот 

Оезюп оЁ Са Шег ЕпзетЫе Бу Сепейс Авотт 

ТБе рарег ргорозез а пе\ еуоайопагу арргоасб ю с1аззег епзетЫе 4ез1епт. ТБе ргорозе4 арргоасВ 15 
еуеоре4 оп е Ба$1$ оЁ сепейс а!еогИбт ул тоб1е4 геа1тайоп зсВете аз аррПе4 {№0 фе орйпитайоп 
о# Геаваге зеё десотроз! оп шо Фе 5и65е{з, уЛисЬ 4ейпе Фе шагу1иа| епзетЫе?$ с1азз1Негз апа ргоу14е 
Фе Ы12Ъ с1аз1Ясайоп ассигасу. иги орйпихайоп Бо шатуна] с1аз1Нег$’ рагатеегз ап4 Фе епзетЫе 
рагатейег$ аге 4ейпед. \/1ф Фе арргоасв а Ее\" епзетЫе5 ууеге дез1опе4 Юг зеуега1 Чаёазе Кот тасте 
еагпше Чабафазе ап4 Юг опе геа! плеФ1са! Ча{азей. Тре сотрагайуе {1езйпе збо\уз Фе адуагиасез оЁ фе 
ргорозе4 арргоасВ юг пийуапае 4айа апа[уз1$ \ИБ отеа пипабег оЁ Реабигез. 
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